04. Keras 中的优化程序

Keras 优化程序

Keras 中有很多优化程序,建议你访问此链接或这篇精彩博文(此链接来自外网,国内网络可能打不开),详细了解这些优化程序。这些优化程序结合使用了上述技巧,以及其他一些技巧。最常见的包括:

SGD

这是随机梯度下降。它使用了以下参数:

  • 学习速率。
  • 动量(获取前几步的加权平均值,以便获得动量而不至于陷在局部最低点)。
  • Nesterov 动量(当最接近解决方案时,它会减缓梯度)。

Adam

Adam (Adaptive Moment Estimation) 使用更复杂的指数衰减,不仅仅会考虑平均值(第一个动量),并且会考虑前几步的方差(第二个动量)。

RMSProp

RMSProp (RMS 表示均方根误差)通过除以按指数衰减的平方梯度均值来减小学习速率。